FDR(False Discovery Rate)
false discovery rateは、簡単に言うと、「棄却された全ての帰無仮説のうち、αエラーが含まれている確率」です。
baysianなやり方、あとでまとめたい。
多重検定を行う際に使う。 positiveとしたけどfalseになってしまう割合。
複数回検定をおこなってもfalseを踏む確率(割合)をある値(q値)に抑えたい。1回だけならp値と同じ?
p値のおさらい
P値は、検定における有意水準, この水準以下まで判断ミスが確率(繰り返しで)的に起きない(例えば5%といった).
帰無仮設で想定される分布で、検定統計量が位置する場所が、その水準以下かどうかの判定をする
この検定(当たり前だけど確率的な)を繰り返すと、1回だけなら、上記のp値が間違える確率だけど、繰り返せば、
(1 - p^n)と、判定間違いをする確率が、p値より上がっていく。
解説記事へのリンク
$ q_m = p_m \frac{N}{m} Nは帰無仮説の数, mはそのなかでp値を昇順にしたときの順位。
分子は、棄却されたのに本当は帰無仮説が正しいもの
分母は、棄却された帰無仮説の数は m ですから
同じ母集団のデータからの検定では p-valueが一様分布するので、
一様分布なので、順番に並べれば、ポジションがその元の仮説の割合を正しいとする確率になる。 ここが一番よく説明してくれてる。
図はBH法で、FDR(ここでは)0.05以下に収まったもの(有意として?)をpickしてる。
https://gyazo.com/c97c18ee112c9d7503d01bc50c9f955e
p値を、
昇順にして、検定した数....